以音韻屬性偵測擷取對話語音關鍵詞之研究 (Study on Keyword Spotting using Prosodic Attribute Detection for Conversational Speech) [In Chinese]
نویسندگان
چکیده
It is one of most essential issues to extract the keywords from conversational speech for understanding the utterances from speakers. This thesis aims at keyword spotting from spontaneous speech for keyword detecting. We proposed prosodic features that are used for keyword detection. The prosody words are segmented from speaker’s utterance according to the pre-training decision tree. The supported vector machine is further used as the classifier to judge the prosody word is keyword or not. The prosody word boundary segmentation algorithm based on decision tree is illustrated. Besides the data driven feature, the knowledge obtained from the corpus observation is integrated in the decision tree. Finally, the keyword Proceedings of the Twenty-Fourth Conference on Computational Linguistics and Speech Processing (ROCLING 2012)
منابع مشابه
基於卷積類神經網路之廣播節目音訊事件偵測系統 (Automatic Audio Event Detection of Broadcast Radio Programs Based on Convolution Neural Networks) [In Chinese]
廣播電臺節目中通常包含語音,音樂與其他音訊事件(如笑聲或特效聲)。若能偵 測並切割這些音訊事件,就能進一步對廣播節目進行加值運用。例如,轉寫語音片段的 逐字稿,或是辨認音樂片段的歌名與曲名,以利檢索。針對此問題,在本論文中,我們 首先設計,並以人工標註出一廣播節目音訊事件資料庫,再利用 Convolutional Neural Network (CNN)自動擷取有效的特徵音訊參數,對廣播電臺的音檔做音訊事件偵測與切 割,最後轉成具時間資訊的音訊事件標註檔。實驗方面我們從教育電臺節目中,選出新 聞類與不同性質的談話類節目共 14 個,經人工標注後,獲得總長度共約 60 小時的音 檔,並用來訓練與測試 CNN和傳統 Gaussian Mixture Model(GMM)的效能。實驗結 果顯示以 CNN直接搭配頻譜參數,在偵測語音與非語音,音樂與非音樂或其它與非其 它音訊事件等的錯誤率(e...
متن کامل使用關聯法則為主之語言模型於擷取長距離中文文字關聯性 (Association Rule Based Language Models for Discovering Long Distance Dependency in Chinese) [In Chinese]
摘要 本論文提出一種能擷取長距離資訊的語言模型,它可以擷取多詞彙之間的關 聯性,擷取的方式是使用資料探勘中十分流行的 Apriori 演算法,傳統上 n-gram 語言模型只能在 n-gram 視窗內擷取到有限距離的資訊,較長距離的資訊也就因 此而流失,然而這些失去的長距離資訊對於語言模型是十分重要的,所以如何克 服 n-gram 模型缺乏長距離資訊一直是非常熱門的研究課題,觸發序對就是其中 一種有效的方法,其主要功能是在擷取長距離之詞序對資訊,也就是建立起詞與 詞之間的關聯性,然而我們所提出的關聯法則技術能擷取多元詞組間的關聯性, 可以說是進一步改良詞組數並建立更長距離資訊,而實驗結果也顯示本論文方法 比起傳統觸發序對獲得較低的 perplexity,此關聯法則技術也可以有效的與其他 模型調整及模型平滑化的技術結合,在語言模型的效率改善方面能有更良好的效 果,最後本論文也將提出的語...
متن کامل主題語言模型於大詞彙連續語音辨識之研究 (On the Use of Topic Models for Large-Vocabulary Continuous Speech Recognition) [In Chinese]
本論文研究使用主題資訊之語言模型(Language Model)。當語言模型用於大詞彙連續語 音辨識時,其主要的任務是藉由已解碼歷史詞序列資訊來預測下一個候選詞出現的可能 性。傳統的 N 連(N-gram)語言模型容易受限於模型參數過多的問題,僅能用來擷取短距 離的詞彙接連資訊,並不能考慮完整的歷史詞序列之語意資訊。因此,近十幾年來許多 研究學者陸續提出各式主題模型(Topic Model),包括討論文件與詞之關係的機率式潛藏 語意分析(Probabilistic Latent Semantic Analysis, PLSA)和潛藏狄利克里分配(Latent Dirichlet Allocation, LDA),以及討論詞虛擬文件與詞關係的詞主題模型(Word Topic Model, WTM)。這些模型主要都是透過一組潛藏的主題機率分布來描述文件與詞、或者 詞虛擬文件與詞之間的關係...
متن کامل完全基於類神經網路之語音合成系統初步研究 (A Preliminary Study on Fully Neural Network-based Speech Synthesis System) [In Chinese]
A Preliminary Study on Fully Neural Network-based Speech Synthesis System 廖書漢 SHU-HAN Liao ,蔡亞伯 YaBo Chai , 廖元甫 a Yuan-Fu Liao, a 國立台北科技大學電子工程系 [email protected], [email protected], [email protected] 摘要 傳統的語音合成使用先文字分析後語音合成的架構,但是這種兩階段的作法, 通常會有,若前級分析錯誤,就會影響後級合成,且無法挽救的問題。因此,在 本論文中我們希望嘗試把前後級,全部都改成以類神經網路實現,以便將來可以 直接合成一個大的端對端語音合成類神經網路。主要的想法是,直接以字元串為 輸入單位,並盡量用大量未標記語料,進行非監督式類神經網路訓練。我們的系 統包含四個子網路,分...
متن کامل透過語音特徵建構基於堆疊稀疏自編碼器演算法之婚姻治療中夫妻互動行為量表自動化評分系統(Automating Behavior Coding for Distressed Couples Interactions Based on Stacked Sparse Autoencoder Framework using Speech-acoustic Features)[In Chinese]
人與人之間交談互動,常透過語言傳達彼此的想法,並在這交談過程中得知雙方的行為 反應。利 用人為觀察來分析雙方行為反應,這種人為分析方式最早常應用在心理學和精神醫學方面 [2]。人 為行為觀察已經相當的成功用於研究親密關係 [3][4],因為夫妻的互動行為是影響親密關係程度的 重要因素之一。然而使用人為觀察行為的方式長年存在根本問題,一方面太消耗時間,另一 面也 主觀。 如果能透過電腦工程的方式來幫忙人為觀察將大大提升效率:即透過低層描述映射高層描 述來預測與分析人類行為 [5]。這項研究領域是一個新興的領域分。人類行為信號處理 (Behavioral Signal Processing, BSP)目的在幫助連接信號處理技術與行為分析的跨領域學科,建立在 傳統的信號 處理研究,如語音識別,面手部追蹤等等。相關顯著 BSP 研究已發產於以人為中心的提取音頻, 視頻信號,來分析高階人類行為...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2012